DiscoverЛингвоподкастМашинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс
Машинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс

Машинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс

Update: 2024-09-20
Share

Description

Гость этого выпуска – Александр Антонов, аналитик в Яндекс.Переводчике и создатель корпусов для чувашского языка [https://huggingface.co/alexantonov]. 


С Александром мы обсудили механизмы автоматического перевода и специфику работы с малоресурсными языками. А еще поговорили:

📍 Об истории развития моделей машинного перевода: от словарей и статистических моделей до нейронок и LLM

📍  Об автоматической обработке малоресурсных языков: где берутся данные для обучения моделей и как создаются параллельные корпуса

📍 Как разработчики учат модели учитывать контекст, интерпретировать метафоры и идиомы 


Ведущая, продюсер: Мария Бочарова

Монтажер: Андрей Чиркин


🎧 Подписывайтесь на нас в соц. сетях: 

t.me/lingvo_podcast

vk.com/lingvopodcast


📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com


Таймкоды:

01:20 Как все начиналось: Манхэттанский проект и правиловые переводчики

04:05 Первые модели статистического перевода

07:50 Как нейросети поменяли правила игры

10:50 Как работает перевод для разных грамматических систем

12:40 Перспективы использования больших языковых моделей

15:50 Как собираются параллельные корпуса

20:10 Как оценивать модели перевода: бенчмарки, эталонные корпуса, нейросетевые метрики, люди

25:25 Путь Александра в Яндекс и автоматический перевод

27:40 Чувашско-русский переводчик, над которым работал Александр

33:25 Зачем большому бизнесу перевод для малых языков

35:00 Какие были сложности при сборе данных для чувашского языка

36:40 Лайфхаки по обучению моделей для малых языков

40:10 Перспективы корпуса чувашского языка: распознавание и генерация речи

43:05 Достигли ли своего предела технологии перевода? Технологии speech-to-speech, мультимодальные GPT, перевод по фото, локализация. 


Comments 
In Channel
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

Машинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс

Машинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс